1
카운트에서 맥락으로: 자연어 처리의 진화
AI030Lesson 3
00:00

자연어 처리(NLP)의 발전은 언어를 독립적인 단일 기호로 보는 방식에서 연속적이고 다차원 벡터 공간으로 표현하는 방식으로의 근본적인 전환을 의미합니다. 우리는 단순한 특징 기반 표현 에서 심층적인 의미 지도로 나아갔습니다.

TF-IDF (희소)차원 수 = 어휘 크기Word2Vec (분산)여왕사과차원 수 = 잠재 특성

표현 방식의 전환

  • 통계 시대 (희소): 초기 자연어 처리는 TF-IDF 알고리즘에 의존했습니다. 검색에는 효과적이지만 '희소성의 저주'라는 문제를 겪습니다. TF-IDF 시스템에서는 '의사'와 '의사'가 직교 벡터이며, 수학적으로는 전혀 관련이 없습니다.
  • 분산 혁명 (신경망 언어 모델 및 Word2Vec): 신경망 언어 모델은 밀집 벡터를 도입했습니다. Word2Vec(Skip-gram/CBOW)는 유사한 맥락에 나타나는 단어들은 공간적으로 이웃해야 한다고 학습합니다.
  • 글로벌 통계 (GloVe): 글로벌 벡터는 전체 코퍼스를 통해 전역 공출현을 분석함으로써 간극을 메우며, 거리가 수학적 의미적 유사성을 반영하도록 보장합니다.
깊은 통찰
발생 횟수 세기에서 맥락 예측으로의 전환은 모델이 미묘한 차이를 포착할 수 있게 합니다. 이 '분산 표현'은 한 단어의 의미가 수백 개의 벡터 차원에 걸쳐 분포되어 있음을 의미하며, 각 차원은 성별, 왕권, 또는 의료 맥락과 같은 잠재적 의미 특성을 나타낼 수 있습니다.